久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

Sphinx/字符集、大小寫轉(zhuǎn)換和轉(zhuǎn)換表

來自站長百科
Qianlei討論 | 貢獻(xiàn)2011年11月24日 (四) 13:34的版本 →?參考來源
(差異) ←上一版本 | 最后版本 (差異) | 下一版本→ (差異)
跳轉(zhuǎn)至: 導(dǎo)航、? 搜索

Sphinx | 安裝 | 建立索引|搜索|命令行工具參考|MySQL存儲引擎

當(dāng)建立索引時,Sphinx從指定的數(shù)據(jù)源獲得文本文檔,將文本分成詞的集合,再對每個詞做大小寫轉(zhuǎn)換,于是“Abc”,“ABC”和“abc”都被當(dāng)作同一個詞(word,或者更學(xué)究一點(diǎn),詞項term)

為了正確完成上述工作,Sphinx需要知道:

  1. 源文本是什么編碼的;
  2. 那些字符是字母,哪些不是;
  3. 哪些字符需要被轉(zhuǎn)換,以及被轉(zhuǎn)換成什么.

這些都可以用 charset_type 和 charset_table 選項為每個索引單獨(dú)配置. charset_type 指定文檔的編碼是單字節(jié)的(SBCS)還是UTF-8的。 charset_table 指定了字母類字符到它們的大小寫轉(zhuǎn)換版本的對應(yīng)表,沒有在這張表中出現(xiàn)的字符被認(rèn)為是非字母類字符,并且在建立索引和檢索時被當(dāng)作詞的分割符來看待。

注意,盡管默認(rèn)的轉(zhuǎn)換表并不包含空格符 (ASCII code 0x20, Unicode U+0020) , 但是這么做是 完全合法的. 這在某些情況下可能有用,比如在對tag構(gòu)造索引的時候,這樣一個用空格分開的詞集就可以被當(dāng)作一個單獨(dú)的查詢項了.

參考來源[ ]

Sphinx使用手冊導(dǎo)航

安裝

支持的操作系統(tǒng)|需要的工具|在Linux、BSD上安裝Sphinx|在Windows上安裝Sphinx|已知的安裝問題和解決辦法|Sphinx快速入門教程

建立索引

數(shù)據(jù)源|屬性|MVA|索引|源數(shù)據(jù)的限制|字符集、大小寫轉(zhuǎn)換和轉(zhuǎn)換表|SQL 數(shù)據(jù)源|xmlpipe 數(shù)據(jù)源|xmlpipe2 數(shù)據(jù)源|Python 數(shù)據(jù)源|實(shí)時索引更新|索引合并

搜索

匹配模式|布爾查詢語法|擴(kuò)展查詢語法|權(quán)值計算|排序模式|結(jié)果分組|分布式搜索|MySQL 協(xié)議支持與SphinxQL

命令行工具參考

indexer命令參考|searchd命令參考|search命令參考|spelldump命令參考|indextool命令參考

MySQL存儲引擎

SphinxSE 概覽|安裝 SphinxSE|使用 SphinxSE|通過 MySQL 生成片段